智能论文笔记

RGB-X Classification for Electronics Sorting

FNU Abhimanyu , Tejas Zodage , Umesh Thillaivasan , Xinyue Lai , Rahul Chakwate , Javier Santillan , Emma Oti , Ming Zhao , Ralph Boirum , Howie Choset

分类：计算机视觉 | 机器人

2022-09-08

从废物电气和电子设备（WEEE）中有效拆卸和回收材料是将全球供应链从碳密集型，采矿材料转移到可回收和可再生的材料的关键步骤。常规的回收过程依赖于切碎和分类废物流，但是对于由许多不同材料组成的Weee，我们探索了针对许多物体的靶向拆卸，以改善材料恢复。许多WEEE对象都共享许多关键特征，因此看起来非常相似，但是它们的材料组成和内部组件布局可能会有所不同，因此，对于随后的拆卸步骤，为准确的材料分离和恢复而具有准确的分类器至关重要。这项工作介绍了RGB-X（一种多模式图像分类方法），该方法利用了来自外部RGB图像的关键特征，并从X射线图像中生成的图像来准确地对电子对象进行分类。更具体地说，这项工作开发了迭代类激活映射（ICAM），这是一种新型的网络体系结构，明确地侧重于用于准确的电子对象分类所需的多模式特征映射中的细节。为了培训分类器，由于费用和需要专家指导，电子对象缺乏大型且注释良好的X射线数据集。为了克服这个问题，我们提出了一种新的方法，可以使用应用于X射线域的域随机化创建合成数据集。合并的RGB-X方法使我们在10代现代智能手机上的准确度为98.6％，其单独的精度为89.1％（RGB）和97.9％（X射线）。我们提供实验结果3来证实我们的结果。

translated by 谷歌翻译

Optimal Control for Quadruped Locomotion using LTV MPC

Andrew Zheng , Sriram S. K. S Narayanan , Umesh G Vaidya

分类：机器人

2022-12-10

This paper presents a state-of-the-art optimal controller for quadruped locomotion. The robot dynamics is represented using a single rigid body (SRB) model. A linear time-varying model predictive controller (LTV MPC) is proposed by using linearization schemes. Simulation results show that the LTV MPC can execute various gaits, such as trot and crawl, and is capable of tracking desired reference trajectories even under unknown external disturbances. The LTV MPC is implemented as a quadratic program using qpOASES through the CasADi interface at 50 Hz. The proposed MPC can reach up to 1 m/s top speed with an acceleration of 0.5 m/s2 executing a trot gait. The implementation is available at https:// github.com/AndrewZheng-1011/Quad_ConvexMPC

translated by 谷歌翻译

Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition

A Arunkumar , Vrunda N Sukhadia , S. Umesh

分类：自然语言处理

2022-06-11

已经证明，基于自我监督的学习（SSL）模型可以生成强大的表示，可用于改善下游语音任务的性能。可以使用几种最先进的SSL模型，并且这些模型中的每一个都优化了不同的损失，这会导致其功能互补的可能性。本文提出了使用此类SSL表示和模型的集合，该集合利用了各种预审预周化模型提取的特征的互补性质。我们假设这导致了更丰富的特征表示，并显示了ASR下游任务的结果。为此，我们使用了三个SSL模型，这些模型在ASR任务上显示出了出色的结果，即Hubert，Wav2Vec2.0和小波。我们使用从预训练的模型获得下游ASR任务的嵌入方式来探索用于ASR任务的模型集合和功能集合。我们使用LiblisPeech（100H）和WSJ数据集的单个模型和预训练的功能获得了改进的性能，用于下游任务。

translated by 谷歌翻译

Joint Encoder-Decoder Self-Supervised Pre-training for ASR

Arunkumar A , Umesh S

分类：自然语言处理

2022-06-09

自我监督的学习（SSL）在各种与语音有关的下游任务（包括自动语音识别（ASR））中表现出巨大的成功。 SSL模型的输出嵌入被视为语音信号的强大短期表示。但是，在ASR任务中，主要目标是获得正确的声学单元，字符或字节对编码（BPE）的正确顺序。通常，对于ASR等序列到序列任务，编码器解码器架构非常出色。因此，在本文中，我们提出了一个新的范式，该范式在自学学习过程中利用解码器的力量。我们使用隐藏的单位Bert（Hubert）SSL框架来计算编码器的常规掩蔽预测损失。此外，我们在SSL框架中引入了解码器，并为解码器提出了目标准备策略。最后，我们使用多任务SSL设置，其中我们共同优化编码器和解码器损耗。我们假设SSL模型中的解码器的存在有助于它学习基于声学单元的语言模型，这可能会改善ASR下游任务的性能。我们将我们提出的SSL模型与Hubert进行了比较，并通过对各种LibrisPeech子集进行填充，在ASR上的性能相对相对提高了25％。

translated by 谷歌翻译

Robust and Efficient Medical Imaging with Self-Supervision

Shekoofeh Azizi , Laura Culp , Jan Freyberg , Basil Mustafa , Sebastien Baur , Simon Kornblith , Ting Chen , Patricia MacWilliams , S. Sara Mahdavi , Ellery Wulczyn

分类：计算机视觉 | 人工智能 | 机器学习

2022-05-19

医疗人工智能（AI）的最新进展已提供了可以达到临床专家水平绩效的系统。但是，当在与训练环境不同的临床环境中评估时，这种系统往往会证明次优的“分布式”性能。一种常见的缓解策略是使用特定地点数据为每个临床环境开发单独的系统[1]。但是，这很快变得不切实际，因为医疗数据很耗时，可以注释且昂贵[2]。因此，“数据有效概括”的问题给医学AI开发带来了持续的困难。尽管代表性学习的进展显示出希望，但并未对其好处进行严格的研究，特别是用于分布的设置。为了应对这些挑战，我们提出了RESEDIS，这是一种统一的代表学习策略，以提高医学成像AI的鲁棒性和数据效率。雷雷迪斯使用大规模监督转移学习与自我监督学习的通用组合，几乎不需要特定于任务的自定义。我们研究各种医学成像任务，并使用回顾性数据模拟三个现实的应用程序场景。 RESEDIS表现出明显改善的分布性能，而在强有力的基线上，诊断准确性相对相对提高了11.5％。更重要的是，我们的策略会导致对医学成像AI的强大数据有效的概括，并使用跨任务的1％至33％的重新培训数据匹配强有力的监督基线。这些结果表明，Repedis可以显着加速医学成像AI开发的生命周期，从而为医学成像AI提供了重要的一步，以产生广泛的影响。

translated by 谷歌翻译

GlacierNet2: A Hybrid Multi-Model Learning Architecture for Alpine Glacier Mapping

Zhiyuan Xie , Umesh K. Haritashya , Vijayan K. Asari , Michael P. Bishop , Jeffrey S. Kargel , Theus H. Aspiras

分类：机器学习

2022-04-06

近几十年来，气候变化显着影响冰川动态，导致质量损失和冰川相关危害的风险增加，包括冰川上和冰期湖上的湖泊发展以及灾难性的爆发洪水。快速变化的条件决定了对气候 - 冰川动力学的连续和详细观察的需求。有关冰川几何形状的主题和定量信息对于理解气候强迫和冰川对气候变化的敏感性的敏感性至关重要，但是，基于光谱信息和常规机器学习技术的使用，基于使用光谱信息和常规的机器学习技术，众所周知，准确地绘制碎片冰川冰川（DCG）。这项研究的目的是改善较早提出的基于深度学习的方法Glaciernet，该方法旨在利用卷积神经网络分割模型来准确地概述区域DCG消融区。具体而言，我们开发了一种增强的冰川架构，使多个模型，自动后处理和盆地级水文流技术来改善DCG的映射，从而包括消融区和积累区域。实验评估表明，GlacierNet2改善了消融区的估计，并允许高水平的交点比联合（IOU：0.8839）得分。所提出的体系结构在区域尺度上概述了完整的冰川（累积和消融区），总体评分为0.8619。这是自动化完整冰川映射的至关重要的第一步，可用于准确的冰川建模或质量平衡分析。

translated by 谷歌翻译

Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition

Lodagala V S V Durga Prasad , Ashish Seth , Sreyan Ghosh , S. Umesh

分类：自然语言处理

2022-03-31

学习高级语音表征的自学学习（SSL）一直是在低资源环境中构建自动语音识别（ASR）系统的一种流行方法。但是，文献中提出的共同假设是，可以使用可用于SSL预训练的相同域或语言的大量未标记数据，我们承认，在现实世界中，这是不可行的。在本文中，作为Interspeech Gram Vaani ASR挑战的一部分，我们尝试研究域，语言，数据集大小和上游训练SSL数据对最终性能下游ASR任务的效果。我们还建立在持续的训练范式的基础上，以研究使用SSL训练的模型所拥有的先验知识的效果。广泛的实验和研究表明，ASR系统的性能易受用于SSL预训练的数据。它们的性能随着相似性和预训练数据量的增加而提高。我们认为，我们的工作将有助于语音社区在低资源环境中建立更好的ASR系统，并引导研究改善基于SSL的语音系统预培训的概括。

translated by 谷歌翻译

PADA: Pruning Assisted Domain Adaptation for Self-Supervised Speech Representations

Lodagala V S V Durga Prasad , Sreyan Ghosh , S. Umesh

分类：自然语言处理 | 机器学习

2022-03-31

虽然自我监督的语音表示学习（SSL）模型执行了各种下游任务，但已经观察到这些模型过于拟合未标记数据来源的域。为了减轻此问题，我们提出了PADA（修剪辅助域的适应性），并在大量室外（OOD）数据上进行预训练的模型中的冗余权重。直观地，这有助于为目标域ASR芬太尼腾出空间。可以通过各种修剪策略来识别多余的权重，这些策略已作为本工作的一部分进行了详细讨论。具体而言，我们研究了最近发现的任务不合时宜的和任务感知的修剪对PADA的效果，并根据后者提出了一个新的修剪范式，我们称之为跨域任务意识到的修剪（CD-TAW）。 CD-TAW从精心调整的OOD模型中获得了初始修剪面膜，这使其与本文讨论的其余修剪策略完全不同。当在没有语言模型（LM）解码的2小时子集中进行微调时，我们提出的CD-TAW方法比基线相对相对改善高达20.6％。此外，我们进行了详细的分析，以突出提出的方法的关键设计选择。

translated by 谷歌翻译

MMER: Multimodal Multi-task learning for Emotion Recognition in Spoken Utterances

Sreyan Ghosh , Harshvardhan Srivastava , S. Umesh

分类：自然语言处理

2022-03-31

情绪识别（ER）旨在将人的话语分类为不同的情感类别。基于本文和声学模式之间的早期融合和基于自我注意力的多模式相互作用，在本文中，我们提出了一种多模式多任务学习方法，用于从孤立的单个话语中进行ER。Iemocap基准测试的实验表明，我们提出的模型的表现要比我们对最新的改性的重新实现要好，并且比文献中所有其他单峰和多模式方法更好地实现了性能。此外，强大的基准和消融研究证明了我们提出的方法的有效性。我们在GitHub上公开提供所有代码。

translated by 谷歌翻译

DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning

Sreyan Ghosh , Ashish Seth , and Deepak Mittal , Maneesh Singh , S. Umesh

分类：自然语言处理

2022-03-25

受到计算机视觉的自我监督学习的最新进展的启发，在本文中，我们介绍了Delores，这是一种新的通用音频表示方法。我们的主要目标是使我们的网络学习在资源受限的设置（数据和计算）中，可以很好地跨越各种下游任务。受Barlow Twins目标功能的启发，我们建议学习对输入音频样本失真不变的嵌入，同时确保它们包含有关样本的非冗余信息。为此，我们测量了两个相同的网络的输出之间的互相关矩阵，该网络用从音频文件采样的音频段的变形版本中，使其尽可能接近身份矩阵。我们将大规模音频集数据集和FSD50K的一小部分组合用于自学学习，并且与最先进的算法相比，参数的一半不到一半。为了进行评估，我们将这些学习的表示形式转移到9个下游分类任务，包括语音，音乐和动物声音，并在不同的评估设置下显示竞争结果。除了简单明了，我们的预训练算法还可以通过其固有的构造本质来计算，并且不需要仔细的实施细节以避免琐碎或退化的解决方案。此外，我们对结果进行消融研究，并使我们的所有代码和预培训模型公开可用https://github.com/speech-lab-iitm/delores。

translated by 谷歌翻译